机译:通过价值函数发现学习马尔可夫决策过程中的最优策略
机译:马尔可夫决策过程最优动作的收敛性与(s,S)库存策略的最优性
机译:离散时间马尔可夫决策过程中最优方程和最优策略的性质
机译:连续时间马尔可夫决策过程的马尔可夫策略的充分性以及跳跃马尔可夫过程的Kolmogorov正方程的解
机译:最佳学习:贝叶斯自适应马尔可夫决策过程的计算程序。
机译:通过内在动机的自我博弈在多目标马尔可夫决策过程中发展稳健的政策覆盖范围
机译:吸收具有多个约束的半马尔可夫决策过程的后悔最优策略(信息和决策过程的发展)